深度学习模型的最先进的培训算法基于随机梯度下降(SGD)。最近,已经探索了许多变体:用于更好的准确度(例如以EXTRARIAINT)的参数,限制SGD更新,以增加效率(例如MEPROP)的参数的子集或(例如丢弃器)的组合。然而,这些方法的收敛通常不会理论上没有研究。我们提出了一个统一的理论框架来研究这种SGD变体 - 包括上述算法,另外还有用于通信有效训练或模型压缩的多种方法。我们的见解可以用作提高这些方法效率的指南,并促进新应用的概率。作为示例,我们解决了共同训练网络的任务,其中一个版本(限于子网)用于创建可泥瓦网络。通过培训低级变压器,与标准一个,我们获得优于卓越的性能,而不是单独培训。
translated by 谷歌翻译